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Titel: 



Verfahren und Vorrichtung 
fur die Datenverarbeitung 



Beschreibung • 

Die vorliegende Erfindung betrifft das oberbegrif f lich Bean- 
2 0 spruchte und befasst sich somit mit Verbesserungen bei der 
Verwendung von rekonf igurierbaren Prozessortechnologien fur 
die Datenverarbeitung. 



Verwiesen wird beziiglich des bevorzugten Aufbaus von Lo- 
.25 gikzellenf eldern auf .die XPP-Architektur und vorverof f ent- 

. lichte sowie jtingere Schutzrechtsanmeldungen des vorliegenden 
Anmeiders, die zu Of f enbarungszwecken vollumf anglich einge- 
gliedert sind. Erwahnt seien somit insbesondere die 
DE 44 16 881 Al, DE 197 81 412 Al, DE 197 81 483 Al, 
30 DE 196 54 846 Al, DE 196 54 593 Al, DE 197 04 044.6 Al, 
DE 198 80 129 Al, DE 19.8 61 088 Al, DE 199 80 312 Al, 
PCT/DE 00/01869, DE 100 36 627 Al, DE 100 28 397 Al, 
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DE. 101 10 .530 Al, DE 101 11* 014 Al, PCT/EP 00/10516, 
EP 01 102 674 Al, DE 198 80 128. Al, DE 101 39 170 Al, 
DE 198 09 640 Al,. DE 199 26 538.0 Al, DE 100 50- 442 Al, sowie 
■ die PCT/EP 02/02398, DE 102 40 000, DE 102 02 044, 
5 DE J 102 02 175, DE 101 29 237, DE 101 42 904, DE 101 35 210, 
EP 01 129 923, PCT/EP 02/10084, DE 102 12 622, DE 102 36 271, 
DE 102 12 621, EP'02 009 868, DE 102 36 272> DE 102 41 812, 
DE 102 36 269, DE 102 43 322, EP 02. 022 692, ebenso wie die 
EP 02 001 331 und die EP 02 027 277. 

0 ' 

Ein Problem bei herkommlichen Ansatzen zu rekonf igurierbaren 
. Technologien besteht dann, wenn die Datenverarbeitung primar 
auf einer sequenziellen CPU unter Hinzuziehung ' eines konf igu- 
rierbaren Datenverarbeitungslogikzellenf eldes oder derglei-- 
15 chen, erfolgen solL und/oder eine Datenverarbeitung gewunscht 
ist,. in der viele und/oder umf angreiche sequenz'iell auszufiih- 
rende Verarbeitungsschritte vorliegen. 

Es sind Ansatze bekannt,. die sich damit befassen, -wije * eine 
20 Datenverarbeitung sowohl auf einem konf igurierbaren Datenver- 
arbeitungslogikzellenf eld als auch auf einer CPU erfolgen " 
kann. • 

So ist aus der WO 00/4 94 96 t ein Verfahren zum Ausfuhren eines 
25 - Computerpfograinines mit einem Prozessor bekannt, der eine kon- 
• figurierbare funktionelle Einheit umfasst, die in der Lage 
ist', rekonf igurierbare Anweisungen auszufuhren, deren Effekt 
zur Lauf zeit durch Laden eines Konf igurationsprogrammes rede- 
finiert werden kann, wobei das Verfahren die Schritte um- 
30 fasst, dafi Kombinationen rekonf igurierbarer Anweisungen aus- 
gewahlt, ein respektives Konf igurationsprogramm fur jede Kom- 
bination erzeugt und das * Computerprogramm ausgefdhrt wird. 
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Dabei soil jedes Mai, wenn eine Anweisung aus- einer der Kom- 
binationen wahrerid der Aiisfuhrung gebraucht wird und die kon 
figuri.erbare funktionelle Einheit nicht. mit dem Konfigurati- 
onsprogramm fur diese Kombination konfiguriert ist, das Kon- 
figurationsprograimn fur alle der Anweisungen der Kombination 
in die konf igurierbare funktionelle Einheit geladen werden. 
Welter ist aus der WO 02/50665 Al eine Date.nverarbeitungsvor 
richtung mit einer konf igurierbaren . funktionellen Einheit be 
kannt,. wobei die konfigurierbare funktionelle Einheit dazu- 
dient, eine Anweisung. gemaB einer konf igurierbaren Funktion 
auszufuhren.' Die konfigurierbare funktionelle Einheit welst 
eine Vielzahl von unabhangigen konf igurierbaren LogikblScken 
zum Ausfiihren programmierbarer Logikoperationen .auf, urn die 
konfigurierbare Funktion zu implementieren. .Konfigurierbare 
Verbindungsschaltkreise sind zwischen den "konf igurierbaren 
Logikblocken. und sowohl den Eingangen als auch den Ausgangen 
der konf igurierbaren funktionellen Einheit vorgesehen. Dies 
erlaubt eine Optimalisierung der Verteilung von Logikf'.unktio- 
nen uber die konf igurierbaren Logikblocke. 

Ein Problem bei herkommlichen Architekturen besteht danri, 
wenn eine Ankopplung erfolgen soil und/oder Technologien wie 
Datastreaming, Hyperthreading, .Multithreading und so weiter 
in sinnvoller und Performance steigernder Weise ausgeniitzt 
werden sollen. Die beispielhaft erwahnte Technologie der. vor- 
zitierten Nicht-Anmelder-Dokumente zeigt etwa eine Anordnung, 
bei der zwar Konf igurationen in ein konf igurierbares Daten- 
verarbeitungslogikzellenfeld geladen werden konnen, bei wel- 
chen allerdings der Datenaustausch zwischen der^ALO der CPU 
und dem konf igurierbaren Datenverarbeitungslogikzellenf eld, 
sei es ein FPGA, DSP oder dergleichen, uber die Register er- 
folgt. Mit anderen Worteh miissen Daten aus ein'em Datenstrom 
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zunachst sequenziell in Register 'geschrieben werden und dann 
sequenziell wieder in diesen abgelegt werden. Auch ist "ein 
Problem dann gegeben, wenn ein Zugriff auf Daten von extern 
erfolgen soil, da selbst dann noch. Probleme beim zeitlichen 
5 Ablauf der Datenverarbeitung im Vergleich zur ALU und bei der 
Zuweisung von >Konf igurationen und so weiter bestehen. Die 
herkoramlichen Anordnungen, wie sie aus den Nicht-Anmelder- 
eigenen Schut zrechten bekannt sind, werden unter anderem dazu 
verwendet, Funktionen im konf igurierbaren Datenverarbeitungs- 
10 logikzellenf eld, DFP, FPGA oder dergleichen abzuarbeiten, die 
nicht efficient auf- der CPU-eigenen ALU abzuarbeiten sind. 
Damit wird das konf igurierbarie Datenverarbeitungslogikzellen-^ 
feld praktisch verwendet, urn benutzerdef inierte Opcodes zu 
ermoglicjien, die eine effizientere Abarbeitung. von Algorith- 
15 men ermoglichen, als dies auf dem ALU-Recftenwerk der CPU ohne 
k;onf igurierbare. Datenverarbeitungslogikzellenf eldunterstiit- 
zung moglich ware. 

Im Stand der Technik ist, wie erkannt wurde, die Ankopplung 
20 'demnach im Regelfall wortbasiert, nicht jedoch blockbasiert, 
wie es zur datenstromenden Ve'rarbeitung erforderlich ware. Es. 
ist zunachst wiinschenswert, eine effizientere Datenverarbei- 

• tung- zu ermoglichen, als dies ' mi t einer engen Ankopplung uber 
Register der Fall 1st.' 
25 ' 

Eine weitere Moglichkeit zur Verwendung von Logikzellenf el- 
dern aus grob- und/oder feingranular gebauten Logikzellen und 
Logikzellenelementen besteht in einer sehr losen Ankopplung 
eines solchen Feldes an eine herkommliche CPU und/oder ein 
30 CPU-Kern bei eingebetteten Systemen. Hierbei kann ein her- 
kqmmliches, sequenzielles Programm auf einer CPU oder der- 
gleichen lauf en, beispielsweise ein in C, C++ oder derglei- 
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chen geschriebenes Programm, wobei von diesem Aufrufe einer 
Datenstromverarbeitung auf dem fein- und/oder grobgranularen 
Datenverarbeitungslogikzellenfeld instantiiert werden. Pro- 
blematisch ist dann, dass beim Programmieren fur dieses Xo- 
5 gikzellenf eld -ein nicht in C oder einer anderen. sequenziellen 
Hochsprache geschriebene's Programm fur die Datenstromabarbei- 
tung vorgesehen werden muss. Erwunscht ware hier, dass sowohl 
auf der herkommlichen CPU-Architektur als auch' auf einem mit 
diesen gemeinsam betriebenen Datenverarbeitungslogikzellen- 
10 feld C-Programme oder dergleichen abzuarbeiten .sind, das 

heilit, dass insbesondere mit dem Datenverarbeitungslogikzel^- 
lenfeld in quasi sequenzieller Programmabarbeitung dennoch . 
■ eine Datenstromf ahigkelt erhalten bleibt, wahrend simultan 
auch insbesondere moglich bleibt, dass ein' CPU-Betrieb .in 
15 nicht zu loser Ankopplung moglich ist. Es v ist audh bereits' 

bekannt, innerhalb einer Datenverarbeitungslogikzellenf eldan- 
ordnung, wie sie insbesondere aus PACT 02 (DE 19 6 51 07 5.9-53, 
" WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 98/29952), 
PACT08 , (DE 197 04 728.9, WO 98/35299) PACT 13 (DE 199 26 
20 -538.0, WO 00/77652) PACT 31 (DE 102 12 621.6-53, PCT/EP 

02/10572) bekannt ist, auch eine sequenzielle Datenverarbei- 
tung innerhalb des Datenverarbeitungslogikzellenf eldes vorzu- 
sehen. Hierbei wird dann allerdings innerhalb ■ einer einzelnen 
Konf iguration, beispielsweise um Ressourcen zu sparen, eine 
25 - Zeitoptimierung zu erzielen und so weiter, eine partielle Ab~ 
arbei^ung erzielt, ohne dass diese bereits dazu fiihrt, dass 
ein Programmierer ein Stuck Hochsprachencode automatisch 
leicht ohne weiteres auf ein Datenverarbeitungslogikzellen- 
feld umsetzen kann, wie dies bei herkommlichen Maschinenmo- 
30 dellen fur sequenzielle Prozessoren der Fall ist. Die Umset- 
zung von - Hochsprachencode auf Datenverarbeitungslogikzellen- 
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felder nach Prinz'ipien der Modelle fiir sequenziell arbeitende 
Maschinen ist weiterhin schwierig. 



Aus dem. Stand der Technik ist weiter bekannt, dass mehrere 
5 Konf igurationen, die eine jeweils unterschiedliche Funktions- 
weise von* Arrayteilen bewirken, simultan auf dem Prozessor- 
feld (PA) abgearbeitet werden konnen. und dass ein Wechsel von 
einer oder einigen der Konf iguration (en) ohne Storung anderer 
zur Laufzeit erfolgen kann'. Es sind Verfahren und in Hardware 
10 implementierte Mittel zu • deren Umsetzung bekannt, wie sicher- 
geste'llt werden kann, dass dabei ein Abarbeiten von auf das 
Feld zu ladenden Teilkonf igurationen ohne Deadlock erfolgen 
kann. Verwiesen wird hierzu insbesondere auf die die Filmo- 
. Technik betreffenden Anmeldungen PACT 05 (DE 196 '54 593.5-53,- 
15 WO 98/31102) PACT10 (DE 198 07 872.2, WO "93/44147, WO 

99/44120)' PACT 13 (DE 199 26 538.0, WO 00/77652), PACT 17 (DE 
100.2S 397.7, WO 02/13000). Diese .Technologie • ermoglicht in 
gewisser . Weise bereits eine Parallelisierung und, bei ent- 
sprechender Gestaltung und Zuordnung der Konf igurationen, 
20 auch eine Art Multitasking/Multithreading und zwar. derge- 

stalt, dass eine Planung, das heiflt ein Scheduling und/oder 
eine Zeitnutzungsplanungssteuerung vorgesehen ist. Es sind 
also aus dem Stand der Technik schon Zeitnutzungsplanungs- 
steuerungsmittel und -verfaihren per se bekannt, die, zumin- 
25 dest unter entsprechender Zuordnung von Konf igurationen zu 
. einzelnen Auf gaben und/oder Faden zu Konf igurationen und/oder 
Konf igurationsf olgen, ein Multitasking und/oder Multithrea- 
ding erlauben. Die Verwehdung solchei: Zeitnutzungsplanungs- 
stfeuermittel r die im Stand der Technik zur Konf igurierung 
30 und/oder Konf igurationsverwaltung verwendet wurden, zu Zwek- 
ken des Scheduling von Tasks, Threads, Multi- und Hyper- 
threads wird per se als erfinderisch angesehen.- 
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Wiinschenswert ist aiich zumindest- gemali einem Teilaspekt in 
bevorzugten Varianten, moderne Technologien der Datenverar- 
beitung und Programmabarbeitung wie Multitasking, Multithrea- 
ding, Hyperthreading unterstiitzen zu konnen, zumindest in be- 
vorzugten Varianten einer Halbleiterarchitektur . 
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Der Grundgedanke der Erfindung besteht darin, Neues fur die 
gewerbliche- Anwendung bereitzustellen. \ 

Die Losung dieser Aufgabe wird in unabhangiger Form bean- , 
sprucht. Bevorzugte Ausf uhrungsf ormen finden sich in den Un- 
teranspriichen . 




15 Ein erster wesentlicher Aspekt der vorlie^fenden Erfindung ist 
somit darin zu s^hen, dass dem Datenverarbeitungslogikzellen- 
feld Daten im Ansprechen auf die Ausfuhrung einer Ladekonfi- 
guration durch das Datenyerarbeitungslogikzellenf eld zuge- 
fiihrt werden und/oder Daten. aus diesem Datenverarbeitiingslo-. 
20 gikzellenf eld weggeschrieben (STORE) werden, indem eine 

STORE-Konf iguration entsprechend abgearbeitet wird- Diese La- 
de- und oder Speicherkonf igurationen sind dabei bevorzugt 
derart auszugestalten, dass innerhalb des Datenverarbeitungs- 
logikzellenf eldes direkt oder indirekt Adressen jener Spei- 
25 eherstellen generiert werden, auf 'welche ladend und/oder 

speichernd direkt oder indirekt . zugegrif fen werden soli.. Es 
ist durch diese Einkonf iguration von Adressgeneratoren inner- 
halb einer Konf iguration moglich, eine Vielzahl von Daten in 
das Datenverarbeitungslogikzellenf eld einzuladen, wo sie ge- 
30 gebenenfalls in internen Speichern (iRAM) ablegbar sind 

und/oder wo sie in internen Zellen wie EALUs mit Registern. 
und/oder dergleichen eigenen Speichermitteln abgelegt werden 
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konnen. Die Lade- beziehungsweise Speicherkorif iguration er- 
moglicht somit ein blockweises unci nahezu datenstromartiges, 
insbesondere gegenuber Einzelzugrif f vergleichsweises schnel- 
les Laden von Daten und es kann eine solche Lade-Konf igura- 
tion ausgefuhrt werden vor einer oder mehreren tatsachlich 
Daten auswertend und/oder verandernd abarbeitenden Konfigura- 
tion(en), mit welcher/n die vorab geladenen Daten verarbeitet 
werden. Das Datenladen kann dabei typisch bei grofien Logik- 
zellenfeldern in kleinen Teilbereichen derselben geschehen, ■ 
wahrend andere Teilbereiche mit anderen Aufgaben befaBt sind. 
Bei der in anderen verof f entlichten Dokumenten des Anmelders 
beschriebenen Ping-Pong-artigen Datenverarbeitung, bei der 
auf beideh Seiten eines Datenverarbeitungsf eldes Speicherzel- 
' len vorgesehen sind, wobei die Daten in einem ersten Verar- 
beitungsschritt von dem Speicher auf der 'einen Seite durch 
das Datenverarbeitungsf eld zum Speicher auf der anderen Seite 
stromen, dort die beim ersten Felddurchstroirien erhaltenen 
Zwischenergebnisse im zweiten Speicher abgelegt . wer&en, gege- 
benenfalls das Feld umkonf iguriert wird, die Zwischenergeb- 
nisse dann fur die Weiterverarbeitung zurtickstrSmen usw., 
kann etWa eine Speicherseite durch' eine LOAD-Konf iguration in 
einem Array-Teil mit- neuen Daten vorgeladen werden, wahrend 
aus. der gegentiberliegenden Speicherseite Daten mit einer 
ST0RE-K6nf|. s guration in einem anderen Array-Teil weggeschrie- 
ben werden. Dieses simultane LOAD/STORE-Vorgehen ist im tibri- 
gen auch ohne raumliche Speicherbereichstrennung' moglich. 



Das Laden kann insbesondere aus einem Cache und in diesen 
hinein erfolgen. Dies hat die Vorteile, dass die externe Kom- 
munikation mit grSfieren Speicherbanken iiber den Cachecontrol- 
ler gehandhabt wird, ohne dass innerhalb des Datenverarbei- 
tungslogikzellenfeldes separate Schaltanordnungen dafur vor- 
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gesehen sein mussen, dass der Zugriff in lesender oder 
schreibender Weise bei Cache-Speichermitteln typisch sehr 
.schnell und mit allenfalls geringer Latenzzeit erfolgen wird 
und dass auch typisch eine CPU-Einheit, dort typisch uber ei- 
ne separate LOAD/STORE-Einheit, an diesen Cache angebunden 
1st, sodass ein Zugriff auf Daten und ein Austausch derselben 
zwis.cheh CPU-Kern und Datenverarbeitungslogikzellenf eld- 
blockweise schnell und derart erfolgen kanh, dass nicht fur 
jedes Obergeben von Daten ein separater Befehl etwa aus dem 
OpCode-Fetcher der CPU abgeholt und verarbeitet werden muss. 

Es erweist sich diese Cacheankoppelung auch als wesentlich 
gunstiger als eine Ankopplung eines Datenverarbeitungslo- 
gikzellenf eldes an die ALU uber Register, wenn diese Register 
nur uber eine LOAD/STORE-Einheit mit eineirr Cache kommUnizie- 
ren>. vrie dies aus den Nicht-PACT-eige.nen zitierten Schriften 
per se bekannt ist: 



■ Es kann eine weitere. Datenverbindung zu der Lade/Speicher- 
0 einheit der oder einer dem Datenverarbeitungslogikzellenf eld 
zugeordneten Sequenziell-CPU-Einheit vorgesehen sein und/oder 
zu deren Register. 
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Es sei erwahnt, dass ein Ansprechen derartiger Einheiten liber 
separate Eingangs-/Ausgangsanschliisse (IO-Ports) der insbe- 
sondere als VPU beziehungsweise XPP ausgestaltbaren Datenver- 
arbeitungslogikzellenanordnung erfolgen kann und/oder durch 
einen oder mehrere einem Einzelport nachgeschaltete Multiple- 
xer. 

Dass neben dem insbesondere blockweisen urid/oder streamenden ' 
und/oder im Random-Access, insbesondere im RMW-Modus (Read- 
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Modif y-Write-Modus) erf olgeriden Zugriff auf Cache-Bereiche in 
schreibender und/oder lesender Weise und/oder die LOAD/STORE- 
Einheit und/oder die (per se im Stand der Technik bekannte) 
Verbindung mit dem Register .der Sequenziell-CPU auch eine 
5 Verbindung mit einem externen Massenspeicher wie einem RAM, 
einer Festplatte und/oder einem anderen Datenaustauschport 
wie einer Anteijne und so weiter erfolgen kann, sei auch er- 
wahnt. Es kann fur diesen Zugriff auf Cache- und/oder LOAD/ 
STORE-Einheit- und/oder registereinheitverschiedene Speicher- 
10 . inittel eih separater Port vorgesehen sein. Dass hier geeigne- 
te Treiber, Signalauf bereiter fur Pegelanpassui^g und so' wei- 
ter vorgesehen. sein konnen, sei erwahnt. Im Ubrigen sei er- 
wahnt, dass insbesondere, jedoch nicht . ausschlieiJlich zur 
Aufbereitung eines in das Datenverarbeitungslogikzellenf eld 
15 hineinstromenden oderin die3em stromendeiY Datenstrom die Lo- 
gikzellen des Feldes ALUs bzw. EALU.S umfassen konnen und ty- 
pisch werden, denen eingangs- und/oder ausgangsseitig., insbe- 
sondere sowohl eingangs- als auch ausgangsseitig kurze, f ein- . 
granular konf igurierbare f FPGA-artige Schaltkreise vorgesetzt 
20 sein konnen, urn etwa aus einem .kontinuierlichen Datenstrom 
Vierbitblocke herauszuschneiden, wie dies fiir die MPEG-4- 
De 4 kodierung erforderlich ist'. Es ist dies zum einen vorteil- 
haft, wenn ein Datenstrom in die Zelle hineingelangen soli 
und dort ohne Blockierung von grofieren PAE-Einheiten einer 
25 Art Vorverarbeitung zu unterwerfen ist. Dies, ist auch dann 

von ganz besonderem Vorteil, wenn die ALU als SIMD-Rechenwerk 
ausgestaltet wird, wobei dann ein sehr breites Dateneingangs- 1 
wort von zum Beispiel 32 Bit Datenbreite tiber die vorgeschal- 
teten FPGA-artigen Streifen aufgespalten wird in mehrere pa- 
30 rallele Datenworter von zum Beispiel 4 Bit Breite, die dann 
in den SIMD-Rechenwerken parallel abgearbeitet werden konnen, 
was die Gesamtperf ormance des Systems signifikant zu erhohen 
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vermag, sofern entsprechencie Ariwendung benotigt werden. Es 
sei darauf hingewiesen, dass vorstehend von FPGA-artigen vor- 
beziehungsweise nachgeschalteten Strukturen die Rede war. Mit 
FPGA-artig. muss aber, was explizit erwahnt sei, .nicht. zwin- 
5 gend Bezug genomiuen sein $uf l~Bit-granulare Anordnungen. Es 
ist insbesonder.e mOglich, statt dieser hyperf eingranularen 

Strukturen lediglich feiner granulare -Strukturen von zum Bei- 

■ 

1 spiel 4 Bit Breite vorzus'ehen. Das heifit, die FPGA-artigen 
Eingangs- und/oder Ausg'angsstrukturen vor und/oder nach einer 
10 insbesondere als SIMD-Rechenwerk ausgestalteten ALU-Einheit 
sind so konfigurierbar,. dass immer 4 Bit breite Datenworter 
zugefdhrt- und/oder verarbe.it et " werden, Es ist moglich, hier 
eine Kaskadierung vorzusehen, so dass ,zum Beispiel die ein- 
kommenden 32 Bit breiten Datenworter in 4 separierte bzw. .se- 
15 parierende 8-Bit-FPGA-artige, nebeneinandefr angeordnete 

Strukturen stromen, diesen 4 Stuck 8 Bit breiten FPGA-artigen 
Strukturen ein zweiter Streifen mit 8 Stuck 4 Bit breiten 
FPGA-artigen Strukturen nachgesetzt ist, und § gegebenenf alls 
nach einem weiteren derartigen Streifen dann, sofern dies fur 
2 0 -den jeweiligen Zweck als erforderlich erachtet wird, zum Bei- 
spiel 16 Stuck parallel nebeneinander angeordnete 2 Bit brei- 
te FPGA-artige Strukturen vorgesehen . werden. Wenn dies der 
Fall ist, kann gegenuber rein hyperf eingranular FPGA-artigen 
Strukturen eine betrachtliche Verringerung des Konf igura- 
25 tionsaufwandes erzielt werden. Dass. dies uberdies dazu fuhtt, 
dass der Konf igurationsspeicher und so weiter der FPGA- 
artigen Striiktur wesentlich kleiner. ausf alien kann und somit 
eine Eirisparung an Chipf lache erzielt wird, sei. erwahnt'. . 

30 Prinzipiell sind die vorstehend beschriebeneh Kopplungsvor- 
'telle bei Datenblockstromen uber den Cache prinzipiell er- 
reichbar; besonders bevorzugt ist es jedoch, wenn der Cache 
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streifenweise (slice-artig)- aufgebaut ist und dann ein Zu- 
griff ayif mehrere der Slices simultan erfolgen kann, 'insbe- 
sondere auf alle Slices gleichzeitig. Dies ist dann vorteil- 

• haft, wenn, was noch erortert werden wird, auf dem Datenver- 
arbeitungslogikzellenf eld (XPP) und/oder der Sequenziell-CPU 
und/oder den Sequenziell-CPUs . eine Vielzahl von Threads abzu- 
arbeiten sind r sei es im Wege des Hyperthreadings, des Multi- 

. taskings und/oder des Multithreadings. Es sind also bevorzugt 
Cachespeichermittel mit Scheibenzugrif f bzw. . Scheibenzu- 
grif fsermdglichungssteuermitteln vorgesehen. Es kann dabei z. 
B. jedem Thread eine' eigene Sqheibe zugeordnet warden. Dies 
ermoglicht es spater, beim. Abarbeiten der Threads sicherzu- 
stellen, ( dass jeweils auf die entsprechenden Cachebereiche 
bei Wiederaufnahme der. mit dem Thread abzuarbeitenden Be- 
f ehlsgruppe zugegrif fen wird. ■ ■ v 

Es sei noch einmal erwahnt, dass der Cache nicht" zwingend in 
Slices unterteilt sein muss, und dass, wenn dies der Fall ' 
ist, nicht zwingend jeder Slice einem eigenen Thread zugewie- 
sen werden muss. Es sei allerdings darauf hingewiesen, dass 
dies die bei weitem bevorzugte Methode ist. Es sei weiter ' 
darauf . hingewiesen, dass es Falle geben kann, in denen nicht 
alle Cache-Bereiche simultan Oder zu einer gegebenen Zeit 
temporar benutzt werden. Vielmehr ist zu erwarten, dass bei 
typischen Datenverarbeitungsanwendungen, wie sie in handge- 
haltenen mobilen Telefonen (Handys) , Laptops, Kameras und so 
weiter auftreten werden, haufig Zeiten vorliegeri werden, in 
denen nicht der gesamte Cache benotigt wird. Es ist daher be- 
sojiders bevorzugt, wenn einzelne Cache-Bereiche von der Lei- 
stungsversorgung derart trennbar sind, dass ihr Energiever- 
brauch sighifikant absinkt, insbesondere auf oder nahe null. 
Dies kann bei sliceweiser Ausgestaltung des Caches durch sli- 
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ceweise Abschaltung derselben uber geeignete Leistungsab- 
trerinmittel geschehen.. Die Abtrennung . kann entweder uber eine 
Heruntertaktung, Taktabtrennung oder eine Leistungsabtrennung 
erfolgen.'"' Es kann insbesondere einer .einzelnen Cache-Scheibe 
oder dergleichen eine Zugriff serkennung zugeordnet sein, wel- 
che dazu ausgebildet ist, zu erkennen, ob ein .jeweiliger 
Cache.-Bereich beziehungsweise eine jeweilige Cache-Scheibe 
momentan einen ihm zugeordneten Thread, Hyperthread oder Task 
.hat, von velchem er benutzt wird. Soferii dann vom Zugriffser- 
kennungsmittel festgestellt wird, dass dies nicht der Fall 
ist, wird typisch eine Abtrennung vom'Takt lind/oder' sogar der 
Leistung moglich sein. Es sei erwahnt, dass bei Wiederein- 
schalten .der Leistung nach einem Abtrennen ein sof ortiges 
Wiederansprechen des Cachebereiches moglich ist, also keine 
signifikante Verzogerung durch das An- und Ausschalten der 
Leistungszufuhr zu erwarten ist, sofern mit gangigen geeigne- 
ten Halble.itertechnologien eine Imp lementie rung in Hardware 
erfolgt. 

Ein weiterer besonderer ' Vorteil,' ' der sich bei der .vorliegen- 
den Erfindung ergibt, . bestehit . darin, dass zwar eine besonders- 
effiziente Kopplung beziiglich des Ubertrags von Daten bezie- 
hungsweise Operanden in insbesondere blockweiser Form gegeben 
ist, dass aber dennoch ein Balancing nicht in der Weise er- 
forderlich ist, dass die exakt gleiche Verarbeitungszeit in 
Sequenziell-CPU und XPP beziehungsweise Datenverarbeitungslo- 
gikzellenfeld erforderlich ist. Vielmehr erfolgt .die Verar- 
beiturig in einer praktisch- oftmals unabhangigen Weise, insbe- 
sondere derart, dass die Sequenziell-CPU und die Datenverar- 
beitungslogikzellenfeldanordnung fur* einen Scheduler oder 
dergleichen als separate Ressourcen, betrachtbar sind. Dies 
erlaubt eine sofortige Umsetzung bekannter Datenverarbei- 




tungsprogrammauf spaltun'gstechnologien * wie Multitasking, Mul- 
tithreading und Hyperthr'eading. Der sich ergebende Vorteil, 
dass. ein Pf adbalancing nicht erforderlich ist, fuhrt dazu, 
dass 'beispielsweise in der Sequenziell-CPU beliebige Anzahlen 
von Pipelinestuf en durchlaufen werden konnen, Taktungen in 
unterschiedlicher Weise mogliche sind und so weiter. Ein wei- 
terer Vorteil der vorliegenden Erflndung besteht darin, dass 
durch das Hineinkonf igurieren einer Ladekonf iguration bezie- 
hungsweise einer Storekonf iguration in das XPP oder andere 
Datenverarbeitungslogikzellenfelder die Daten in das Feld rait 
einer Geschwindigkeit hineingeladeri werden oder aus diesem 
herausgeschrieben werden konnen, die nicht mehr bestimmt ist 
durch die Taktgeschwindigkeit der CPU, die Geschwindigkeit, 
mit welcher der OpCode-Fetcher arbeitet, - oder dergleichen. 
Mit anderen Worten ist die Ablauf steuerurig der Sequenziell- 
CPU nicht mehr f laschenhalsartig begrenzend fur den Daten- 
diirchsatz . des Datenzellenlogikf eldes, ohne dass eine nur noch 
lose Ankopplung besteht, ' 

Wahrend es in einer besonders bevorzugten Variante der Erfin- 
dung moglich ist, die fur eine XPP-Einheit bekannte CT (bzw. 
CM; *^Konf igurationsmanager. bzw. Konf igurationstabeile) zu ver- 
wenden, urn sowohl das Konf igurieren eines oder mehrerer, auch 
hierarchisch mit mehreren CTs angeordneter XPP-Felder und 
gleichzeitig eines oder mehrerer Sequenziell-CPUs, dort quasi 
als Hyperthreading-Hardwareverwaltung zu verwenden, was den 
inharenten Vorteil hat, daJi bekannte Technologien wie FILMO 
usw. fur die hardwareunterstutzte Verwaltung beim Hyperthrea- 
ding einse'tzbar werden, ist es alternativ und/oder, irisbeson- 
dere in hierarchischer Anordnung,' zusatzlich moglich, dass 
ein Datenverarbeitungslogikzellenf eld wie eine XPP Konfigura- 
tionen vom OpCode-Fetcher einer Sequenziell-CPU uber das Ko- 
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prozessor-Interface erhalt. Dies fiihrt dazu, dafi von der Se- 
quenziell-CPU und/oder einer anderen XPP ein Aufruf instanti- 
iert werden.kann, der zu einer Datenabarbeitung auf der XPP 
fiihrt. Die XPP wird dabei dann z. B. fiber die beschriebene 
5 Cache-Ankopplung und/oder mittels LOAD-- und/oder STORE- 
Konfigura.tionen, die Adressgenerafcoren' fiir Laden und/oder 
Wegschreiben von Daten im XPP- bzw. . Datenverarbeitungslo- 
gikzellenf eld' vorsehen, im Datenaustausch gehalten. Mit ande- 
ren Worten wird' eine Koprozessor-artige Ankopplung eines Da- 
10 tenverarbeitungslpgikzellenfeldes moglich, wahrend gleichzei.- 
tig ein datenstromartiges Datenladen durch Cache- und/oder 
I/O-Port-Kopplung erfolgt. . . f , 

Es sei erwahnt, dafl die Koprozessor-Ankopplung, d. h. die An- 
15 kopplung des Datenverarbeitung : slogikzellerrf eldes typisch dazu 
fuhren wird, dali das Scheduling auch fur dieses Logikzellen- 
feld auf der Sequeriziell-CPU oder einer dieser ubergeordneten 
Schedulereinheit bzw. einem entsprechenden Schedulermittel 
. erfolgen wird. In einem solchen Fall findet praktisch die 
20 Threading-Kontrolle. und -verwaltung auf dem Scheduler bzw. 
der Sequenziell-CPU statt. Obwohl dies per se moglich ist, 
wird dies, zumindest bei einfachster Implementierung der Er- 
findung, nicht zwingend der Fall sein. Vielmehr kanfi eine 
Verwendung des Datenverarbeitungslogikzellenf eldes durch Auf- 
25 ruf in herkommlicher Weise wie bei einem Standard-Koprozessor 
etwa bei 8086/8087-Kombinationen erfolgen.' 

Weiter sei erwahnt, dafi es in einer ' besonders bevorzugten Va- 
riante, unabhangig von der Art der Konf iguration, sei es uber 
30 das Koprozessor-Interf ace, den als . Scheduler mitdienenden 
Konfigurationsmanager (CT) der XPP bzw. des Datenverarbei- 
tungslogikzellenf eldes oder dergleichen oder auf andere Wei- 
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se, moglich ist, im bzw. unmittelbar am Datenverarbeitungslo- 
.gikzellenf eld bzw. unter Verwaltung des Datenverarbeitungslo- 
gikzellenf eldes Speicher, insbesondere interne Speicher, ins- 
besondere bei der XPP-Architektur, wie sie aus den diversen , 
5 Voranmeldungen und den Verof f entlichungen des Anmelders be- 
kannt ist, RAM-PAEs, oder andere entsprechend verwaltete pder 
interne Speicher wie ein Vektorregister anzusprechen, d. h. 
die tiber die LOAD-Konf iguration eingeladenen Datenmengen vek- 
torartig- wie in Vektorregisterri in die .internen Speicher ab- 
10 zulegen, danh, nach Umkonf igurieren der XPP bzw. des Daten- 

verarbeitungslogikzellenf eldes, also Oberschreiben bzw . Nach- 
laden und/oder Aktivieren einer neuen Konf iguration, die die 
eigentliche Verarbeitung der Daten durchftahrt (indiesem Zu- 
sammenhang sei darauf hingewiesen, daft fur eine solche Verar- 
15 beitungskonf iguration auch Bezug genommeri "werden kann auf ei- 
ne Mehrzahl von Konf igurationen., die z. im Wave-Modus- 
und/oder sequenziell nacheinander abzuarbeiten sind) zuzu- 
greifen wie bei einem Vektorregister und dann die dabei er- 
haltenen Ergebnisse und/oder Zwischenergebnisse wiederum in 
20 die internen oder uber' die XPP wie interne Speicher verwaite- 
ten externen Speicher, urn dort diese Ergebnisse abzulegen. 
Die so vektorregisterartig mit Verarbeitungsergebnissen • be- 
schriebenen Speichermittel- unter XPP-Zugriff sind dann, nach 
Rekonf igurieren der Verarbeitungs konf iguration durch Laden 
25 • der STORE-Konf iguration in. geeigne'ter Weise weggeschrieben, 
was wiederum datenstromartig geschieht, sei es- uber den i/O- 
Port direkt in externe Speicheirbereiche und/oder, wie beson- 
ders bevorzugt, in Cache-Speicherbereiche, auf welche dann zu 
einem spateren Zeitpunkt die Sequenziell-CPU und/oder andere' 
30 • Konf igurationen .auf der zuvor die Daten erzeugt habenden XPP 
oder einer anderen entsprechenden Datenverarbeitungseinheit 
"zugreifen konnen. 
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Eine besonders bevorzugte Variante besteht darin, zumindest 
fur bestimmte Datenverarbeitungsergebnisse und/oder Zwis'chen- 
ergebnisse als . Speicher- bzw. Vektorregistermittel, in wel- 
chem bzw.' welches die erhalteneri Daten abzulegen sind, nicht 
einen internen Speicher zu benutzen, in welchen Daten aber 
eine STORE-Konf iguration in den * Cache- oder einen anderen Be- 
reich, auf welchen die Sequenziell-CPU oder eine andere Da- 
tenverarbeitungseinheit zugreif en konnen, wegzuschreiben 
sind, sondern statt dessen unmittelbar die Ergebnisse wegzu- 
schreiben in entsprechende, insbesondere zugrif f sreservierte 
Cacheberei'che/ die insbesondere Slice-artig organisiert sein 
konnen. Dies kann gegebenenf alls den Nachteil einer grolieren 
Latenz haben, insbesondere wenn die We.ge zwischen der XPP- 
oder Datenverarbeitungslogikzellenf eldeiriheit und dem Cache 
so lang sind, daB die- Signallauf zeiten ins Gewicht fallen,, 
fuhrt aber dazu,'dafi gegebenenf alls keihe weitere STORE- 
Konf iguration benotigt wird. Es sei im ubrigen erwahnt, daB 
eine derartige Abspeicherung von Daten in Cache-Bereiche ei- 
nerseits, wie vorstehend beschriebe'n, dadurch moglich ist, . 
dafi der Speicher, in welchen geschrieben wird, physikalisch 
nahe beim Cache-Controller liegt und' als Cache ausgestaltet 
ist, dass aber alternativ und/oder zusatzlich auch die Mo.g- 
lichkeit besteht, einen Teil eines XPP-Speicherbereiches, 
XPP-internen Speichers oder 'dergleichen, insbesondere bei RAM 
uber PAEs unter die Verwaltung eines oder, t nacheinander meh- 
rerer Cache-Speichercontroller zu stellen. Dies hat dann Vor-' 
telle, wenn die Latenz beim Abspeichern der Verarbeitungser- 
gebnisse, welche innerhalb des Datenyerarbeitungslogikzellen- 
feldes bestimmt werden, gering gehalten werden soil, wahrend 
die< Latenz beim Zugriff auf den dann nur noch als „Quasi- 



:. : 

Cache" dienenden Speicherbereich durch andere Einheiten nicht 
oder nicht signifikant ins Gewicht fallt. 

♦Es sei im ubrigen erwahnt, daJi auch eine Ausgestaltung derart 
5 moglich ist, • daii der Cache-Controller einer herkoramlichen Se- 
quenziell-CPU einen Speicherbereich als Cache anspricht, der, 
ohne dem Datenaustausch mit dem Datenverarbeitungslogikzel- 
lenfeld zu dienen,. auf und/oder bei diesem physikalisch 
liegt. Dies hat den Vorteil, dafi dann, wenn Anwendungen auf 

10 dem Datenverarbeitungslogikzellenf eld laufen, die einen al-. 
lenfalls geringeh lokalen. Speicherbedarf haben, und/oder wenn 

■ auch nur wenige weitere konf igurationen bezogen auf die zur 

Verfugung stehenden Speichermengen beno.tigt werden, diese ei- 
ner oder mehreren Sequenziell-CPUs als Cache zur Verfugung 

15 stehen. konn'en. Es sei erwahnt/ daft dann ddtr Cache-Controller 
fur die Verwaltung eines Cache-Bereiches mit dynamischem Urn- 
fang, d. h. variierende'r Grofie ausgebildet sein kann* und 
wird.Eine dynamsiche .Cache-Umf angsverwaltung bzw. Cache- 
Umf angsverwaltungsmittel fur die dynamische Cache-Verwaltung 

20 wird typisch die Arbeitslast auf der Sequenziell-CPU und/oder 
dem Datenverarbeitungslogikzellenf eld berucksichtigen. Mit 
anderen Worten kann beispielsw'eise analysiert werden, wie 

m viele NOPs in einer' gegebenen Zeiteinheit auf der Sequenzi- 
ell-CPU vorliegen und/oder* wie viele Konf igurationen im XPP- 

25 Feld in dafur vorgesehenen Speicherbereichen vorabgelegt sein 
sollen, urn .eine schnelle Umkonf iguration, sei es im Wege ei- 
ner Wellenrekonf iguration odqr auf andere" Weise. Die hiermit 
offenbarte dynamische Cachegrosse ist'dabei insbesondere be- 
vorzugt lauf zeitdynamisch, d. h . der Chacecontroller yerwal- 

30 tet jeweils eine aktuelle Cachegrosse, die sich von Takt zu 
Takt oder ' Taktgruppe andern kann. Es sei im ubrigen darauf 
hingewiesen, dafi die Zugrif f sverwaltung eines XPP- bzw. Da- 
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tenverarbeitungslogikzellenfeldes mit Zugriff als intemer 
Speicher wie bei einem Vektorregister und' als Cache-artiger 
Speicher fiir den externen Zugriff was die Speicherzugrif f e 
angeht bereits beschrieben wurde in der DE 196 54 595. und der 
PCT/DE' 97/03013 (PACT03) . Die genannten Schrift'en sind durch . 
Bezugnahme zu Of f enbarungszwecken hiermit vollumf anglich ein- 
gegliedert. 





. Vorstehend wurde auf Datenyerarbeitungslogikzellenf elder Be- 
10 zug genommen, .die* insbesondere zur Laufzeit rekonf igurierbar 
sind. Es wurde diskutiert, dass bei diesen eine Konfigurati- 
onsverwalturigseinheit (CT bzw. CN) .vorgesehen werden kann. 
Aus den diversen, zu Of f enbarungszwecken unter Bezug ' genomme- 
nen Schutzrechten • des Anittelders sowie seinen weiteren Ve'rof- 
15 f entlichuhgen ist die Verwaltung von Konf tgurationen per se 
bekannt. Es sei nun explizit darauf hingewiesen, dass derar- 
* tige Einheiten und deren Wirkungsweise, mit der insbesondere 
unabhangig von Ankopplungen an Sequenziell-CPUs etc. aktuell 
noch nicht benotigte Konf igurationen vorladbar sind, auch 
20 sehr gut nutzbar sind, urn im Multitaskingbetrieb und/oder bei 
Hypierthreading \xnd/oder Multithreading einen Task- bezie- 
hungsweise einen Thread-- und/oder Hyperthreadwechsel zu be- 
wirken. Dazu kann ausgeniitzt werden, dass wahrend der Lauf- 
zeit ein.es Threads oder Tasks in -die Konf igurationsspeicher 
25 bei einer einzelnen oder einer Gruppe von Zellen des Daten- 

verarbeitungslogikzellenf eldes, also beispielsweise einer PAE 
eines PAE-Feldes (PA) auch Konf igurationen fiir unter schiedli- 
che Aufgaben, das heifit Tasks oder Threads beziehungsweise 
Hyperthreads geladen werden konnen. Dies fuhrt dann dazu, 
30 dass bei einer Blockade eines Tasks oder Threads, etwa wenn 

auf Daten gewartet werden muss, weil diese noch nicht verfiig- 
.bar sind, sei es, da sie von einer. anderen Einheit noch nicht 
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generiert oder empfangen wurden, beispielsweise auf 'Grund von 
Latenzen, siei es, well eine Ressource derzeit noch 'durch ei- 
' nen anderen Zugriff blockiert ist, dann Konf igurationen fur 
einen anderen Task oder Thread vorladbar und/oder vorgeladen 
5 sind und" auf diese gewechselt werden karin, ohne dass der 

* Zeitoverhead fur einen Konf igurationswechsel bei der-insbe- 

• sondere schattengeladenen Konf iguratiqn abgewartet werden 
muss. Wahrend es prinzipiell moglich ist,. diese Technik au'ch 
dann zu verwenden, wenn innerhalb eines Tasks die wahrschein- 

10 lichste Weiterfuhrung vorhergesagt wird und eine Vorhersage* 
nicht zutrifft (prediction miss), wird diese. Art des Betriebs 
bei vorhersagef reiem Betrieb bevorzugt sein. Bei Verwendung 
mi't einer rein sequentiellen CPU und/oder mehreren rein se- 
quentiellen ' CPUs wird somit durch die Zuschaltung eines Kon- 
15 f igurationsmanagers eine Hyperthreadingveifwaltungshardware 
realisiert. Verwiesen sei hinsichtlich . dessen insbesondere 
auf PACT 10 (DE 198 07 872.2, WO 99/44147, WO 99/44120). Dabei 
kann es als ausreichend erachtet werden, insbesondere dann, 
wenn nur fur eine CPU"- und/oder einige wenige Sequenziell-CPUs 
20 eine' Hyperthreadingverwaltung gewunscht ist, auf bestimmte, 
in den speziell unter Bezug genommenen Schutzrechten be- ■ 
schriebene Teilschaltungen wie den FILMO zu verzichten. Ins- 
besondere wird damit die Verwendung der dort beschriebenen 
Konf igurationsmanager mit und/oder ohne FILMO fur die Hyper- 
25 threadingverwaltung fur eine und/oder mehrere rein sequenzi- 
■ell arbeitende CPUs mit oder ohne Ankopplung an eine XPP oder 
ein anderes Datenverarbeitungslogikzellenf eld offenbart und 
hiermit fur sich beansprucht. Es wird hierin eine fur sich 
erf inderische Besonderheit- gesehen. Es sei im Ubrigen er- 
30 wahnt, dass eine Vielzahl von CPUs realisiert werden kann mit 
" % den bekannten Techniken, wie sie insbesondere aus PACT 31 (DE 
.102 12 621.6-53, PCT/EP 02/10572) bekannt sind, • bei welchen 
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; irinerhalb eines Arrays * eine oder mehrere Sequenziell-CPUs 
aufgebaut werden 'unter Ausrmtzung eines oder mehrerer Spei- 
cherbereiche insbesondere im Datenveirarbeitungslogikzellen- 
f eld *fur den Aufbau der sequenziellen CPU, insbesondere als 
5 Befehls- und/oder Datenregister . .Auch sei darauf verwiesen, 
dass bereits in fruheren Anmeldungen wie PACT02, (DE 196 51 
075.9-53) -WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 
98/29952), PACT08, (DE 197 04 728.9, WO 98/35299) offenbart 
wurde, wie Sequenzer mit Ring- und/oder Wahif rei-Zugrif f- 
10 Speichern aufgebaut. werden konnen. 

m Es sei darauf hingewiesen, dass ein Task- beziehungsweise 

Thread- und/oder Hyperthreadwechsel unter Verwendung der be- 
kannt'en CT-Technologie derart erfolgen kann und bevorzugt 

15 auch erfolgen wird, dasseinem per se bekarnnten, Software-- 

implementierten Betriebssystem-Scheduler oder dergleichen von 
der CT Perf ormance-Scheiben und/oder Zeitscheiben zugeordriet 
werden, wahrend welchen bestimmt wird, von welchen Tasks oder 
Threads nachfolgend welche Teile per se, unterstellt, dass 

20. Ressourcen frei sind, abzuarbe.iten sind. Dazu sei ein Bei- 

spiel wi^ folgt gegeben: Zunachst so.ll fur einen erst en Task 
eine Adressfolge generiert werden, gemSB welcher wahrend der • 

k Ausfiihrung einer LOAD-Konf iguration Daten- aus einem Cache- 

^ Speicher, an dem ean Datenverarbeitungslogikzellenf eld in der 

25 beschriebenen Weise. <angekoppelt ist, geladen werden sollen. 
Sobald diese Daten vorliegen, kann mit der Abarbeitung einer 
.zweiten, der eigentlichen Datenverarbeitungskonf iguration, 
begonnen werden. Auch diese kann vorgeladen werden, da sicher 
feststeht, dass diese Konf iguration, .sofern keine Interrupts 

30 oder dergleichen einen vollstandigen Taskwechsel erzwingen, 
auszufiihren ist. In herkommlichen Prozessoren ist nun das 
Problem des sogenannten Cache-Miss bekannt, bei- dem die Daten 

' . 4 
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zwar angefordert werden, abqr nicht im Cache fur den Ladezu- 
'griff bereit liegen. Tritt ein solcher Fall in einer Kopplung 
gemalJ der vorliegenden Erf indung auf , kann bevorzugt auf ei- 
nen' anderen .Thread, Hypertihread und/oder Task gewechselt wer- 
5 den, der insbesondere zuvor von dem insbesondere softwareim- 
plementierten Betriebssystem-Scheduler und/oder einer anderen 
hard- und/oder sof twareimplementierten, entsprechend. wirken- . 
den Einheit fur eine nachstmogliche Ausfuhrung- bestimmt wurde 
und demgemali bevorzugt vorab in einen der ^verfugbaren Konf i- 
10 gurationsspeicher des Datenverarbeitungslogikzellenf eldes 

insbesondere im Hintergrund wahrend. der Ausfuhrung einer an- 
deren Konf iguration, beispielsweise der LOAD-Konf iguration, 
welche das Laden jener' Daten, auf die nun gewartet wird, be- 
wirkt hat, geladen wurde. Das fur die Vorab konf iguration un- 
15 gestort von der tatsachlichen Verschalturig der insbesondere 
grobgranular ausgebildeten Datenverarbeitungslogikzellen* des 
Datenverarbeitungslogikzellenfeldes separate Konf igurations- 
leitungen von der konf igurierenden Einheit zu den jeweiligen 
■ Zellen direkt und/oder uber geeignete Bussysteme gefuhrt sein 
20 konnen wie per 'se im Stand der Technik bekannt, sei hier noch 
einmal explizit erwahnt, da diese Ausbildung hier besonders 
bevorzugt ist, urn ein ungestortes Vorab konf igurieren ohne 
Storung einer anderen, gerade laufenden Konf iguration zu er- 
moglichen. Wenn dann die Konf iguration, auf welche wahrend 
25 beziehungsweise auf Grund des Task-Thread- ; und/oder Hyper- 
threadwechsels gewechselt wurde, abgearbeitet wurde, und . 
zwar, bei bevorzugten .nicht teilbaren, ununterbrechbaren und 
somit quasi atomareh Konf igurationen bis zum Ende abgeabeitet 
wurde, wird teilweise eine weitere andere Konf iguration wie 
30 vorbestimmt durch die entsprechenden Scheduler, insbesondere 
den betriebssystemartigen Scheduler festgelegt, abgearbeitet 
und/oder j ene Konf iguration, zu welcher zuvor die zugehorige 
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LOAD-Konf iguration ausgefuhrt wurde. Vor der Ausfuhrung einer 
Verarbeitungskonf iguration, zu welcher zuvor ■ eine LOAD- 
Konf iguration ausgefuhrt wurde, kann insbesondere abgetestet 
werden, ob mittlerweile die entsprechenden Daten in das Array 
eingestromt sind, also die Latenzzeit, wie sie'typisch auf- 
tritt, verstrichen ist und/oderdie Daten tatsachlich vorlie- 
gen. 

1 

Mit anderen Worten werden dann Latenzzeiten, wenn sie auftre- 
ten, weil z, B. Konf igurationen noch nicht einkonf iguriert 
sind, Daten noch nicht geladen und/oder Daten noch nicht weg- 
geschrieben wurden, uberbruckt und/oder verdeckt, indem 
Threads, Hyperthreads und/oder Tasks ausgefuhrt werden, wel- 
che schon vorkonf iguriert sind und welche mit .Daten arbeiten, 
die schon verfiigbar sind beziehungsweise 'die an Ressourcen 
'weggeschrieben werden konnen, die fur das Wegschreiben be- 
reits zur VerfUgung stehen. Auf diese Weise werden Latenzzei- 
ten weitgehend uberdeckt - und es wird, eine hinreichende An- 
zahl von per se auszuf uhrenden Threads, Hyperthreads und/oder 
Tasks unterstellt, eine praktisch 100%-ige Ausnutzung des Da- 
tenverarbeitungslogikzellenf eldes erreicht. 

Mit dem beschriebenen System bezugiich Datenstrom-Fahigkeit 
bei gleichzeitiger Ankopplung an eine Sequenziell-CPO und/ 
oder bezugiich der Ankopplung eines XPP-Array beziehungsweise 
Datenverarbeitungslogikzellenfeldes und simultan einer Se-' 
quenziell-CPU an 'eine geeignete Schedulereinheit wie einen 
.Konf igurationsmanager oder dergleichen lassen sich insbeson- 
dere ohne weiteres echtzeitf ahige Systeme realisieren. Zur 
Echtzeitf ahigkeit muss gewahrleistet sein, dass auf eintref- 
fende Daten beziehungsweise Interrupts, die insbesondere das 
Datsneintreffen signalisieren, innerhalb einer in keinem Fall 
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zu. uberschreitenden Maximalzeit reagiert werden kanri. Dies 
kann beispielsweise geschehen durch einen Taskwechsel auf ei- 
nen Interrupt hin und/oder, beispielsweise bei priorisierten 
Interrupts, durch Festlegung, dass ein gegebener Interrupt 
momentan zu ignorieren ist, wobei auch dies innerhalb einer 
bestimmten Zeit festzulegen ist. Eih Taskwechsel bei defarti- 
gen echtzeitfahigen Systemen wird typisch auf drei Arten er- 
folgen konnen, namlich entweder dann, wenn ein Task eine be- • 
stimmte Zeit gelaufen ist (Watch-dog-Prinzip) , bei Nichtzur- 
verfiigungstehen einer Ressource', sei es durch deren Blockade 
durch anderen Zugriff oder aufgrund von Latenzen beim Zugriff 
darauf, insbesondere in schreibender und/oder lesender Weise, 
das heiJJt bei Latenzen von Datenzugrif f en und/oder beim Auf- 
treten von Interrupts. 

Mit der vorliegenden Erfindung kann die Echtzeitfahigkeit ei- 
nes Datenverarbeitungslogikzellenfeldes nunmehr erreicht wer- 
den, indem eine oder mehrere von drei mQglichen Varianten im- 
pl'ementiert wird. 



Eine erste Variante besteht darin, dass innerhalb einer von 
dem Scheduler, beziehungsweise der CT ansprechbaren Ressource 
ein Wechsel zur Abarbeitung beispielsweise eines Interrupts 
erfolgt. Sofern die Ansprechzeiten auf Interrupts oder andere 
25 Anforderungen so groB sind, dass wahrend dieser Zeit eine 
Konfiguration ohne Unterbrechung noch abgearbeitet werden 
kann, ist dies unkritisch, zumal wahrend der Abarbeitung der 
aktuell laufenden Konfiguration auf jener Ressource, die fur 
die Abarbeitung des Interrupts zu wechseln ist, eine Konfigu- 
ration zur Interruptabarbeitung vorgeladen. werden kann. Die 
Auswahl der vorab'zuladenden Interrupt-bearbeitenden Konfigu- 
ration ist z. B. durch die CT durchzuf tthren. Es- ist moglich, 
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die Laufzeit der Konf iguration auf. der fur die' Interruptbear- 
•beitung f reizugebenderi bzw. zu wechselnden Ressource zu be- 
grenzen. Verwiesen wird dazu auf, PACT29/PCT (PCT/DE03/000942) . 

5 Bei Systernen, die schneller auf Interrupts reagieren miissen, 
kann es bevorzugt ' sein, eine einzelne Ressource, also bei- 
spielsweise eine separate' XPP-Einheit und/oder Teile eines 
XPP-Feldes fur eine solche Abarbeitung zu reservieren. Wenn 
dann ein schnell abzuarbeitender Interrupt auftritt, kann 

10 entweder eine fur besonders kritische Interrupts schon vorab 
vorgeladene Konf iguration abgearbeitet werden oder es wird 

I sofort mit dem Laden einer Interrupt behandelnden Konfigura- 
tion in die reservierte Ressource begonnen. Eine Auswahl der 
jeweils fur den.entsprechenden Interrupt erf ofderlichen Kon- 

15 figuration ist durch entsprechende Triggerung, Waveabarbei- 
tung usw. moglich.* , 

Es sei im Ubrigen erwahnb, : dass es mit den schon beschriebe- 
nen Methoden ohne weiteres moglich ist, eine instantane Reak- 
20 tion, auf einen Interrupt zu erhalten, . indeiti iiber die Verwen- 
- dung von LOAD/ STORE-Konf igurationen eine Code-Reentranz er- 
, reicht wird. Hierbei wird nach jeder datenbearbeitenden Kon- 
k figuration oder zu gegebenen Zeiten, beispielsweise alle funf 
V oder zehn Konf igurationen eine STORE-Konf iguration ausgefuhrt 
25 und dann eine LOAD-Konf iguration unter Zugriff auf jene Spei- 
cherbereiche ausgefuhrt, in die zuvor weggeschrieben wurde. 
Wenn sichergestellt wird, dass die von der STORE-Konf igura- 
tion benutzten Speicherbereiche so lange unberuhrt bleiben, 
bis durch Fortschreiten im Task eine weitere Konf iguration 
30 samtliche- relevanten Informationen (Zustande, Daten) wegge- 
schrieben hat, ist sichergestellt, dass bei Wiederladen, also 
. Wiedefeintritt in eirie zuvor bereits begonnene, aber nicht zu 
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•Ende gefiihrte Konf iguration oder Konf igurationskette wieder. 
dieselben Bedingungen erhalten werden. Eine solche Zwischen- 
schaltung von LOAD/ STORE-Konf igurationen unter simultanem 
Schutz von rioch nicht veralteten STORE-Speicherbereichen 
lasst sich automatisch ohne zusatzlichen Progranimieraufwand 
sehr einfach generieren, z. B. von einem Compiler. Dort kann 
die Ressourcenreservierung gegebenenf alls vorteilhaft sein.- 
Das bei der Ressourcenreservierung und/oder in anderen Fallen 
auf zumindest eine Menge hochpriorisierter Interrupts durch 
Vorabladen von bestimmten Konf igurationen reagiert werden 
kann, sei noch einmal erwahnt. 

Eine. weitere, besonders bevorzugte Variante der Reaktion auf 
Interrupts besteht dann, wenn i zumindest eine der- ansprechba- 
ren Ressourcen eine . Sequenziell-CPU ist, darih, auf dieser i ' 
eine Interrupt-Routine abzuarbeiten, in welcher wiederum Code 
fur das Datenverarbeitungslogikzellenf eld verboten ist.Mit 
anderen Worten wird eine Interrupt-Routine ausschliefilich auf 
einer Sequenziell-CPU abgearbeitet , ohne dass XPP-Datenverar- 
beitungsschritte aufgerufen werden. Dies garantiert, dass der 
Verarbeitungsvorgang auf dem Datenverarbeitungslogikzellen- 
feld' nicht zu unterbrechen ist und es kann dann eine Wei- 
terabarbeitung auf diesem Datenverarbeitungslogikzellenf eld - 
nach einem Taskswitch erfolgen. Obwohl damit die eigentliche 
Interrupt-Routine keinen XPP-Code besitzt,. kann dennoch dafiir 
gesorgt werden, dass auf einen Interrupt hin zu einem spate- 
ren, nicht mehr echtzeitrelevanten Zeitpunkt mit der XPP auf ■ 
einen durch einen Interrupt und/oder eine Echtzeitanf orderung 
erfassten Zustand. und/oder Daten unter Verwendung des Daten- 
verarbeitungslogikzellenf eldes reagiert werden kann. 
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' Datenverarbeitungs vorrichtung ihit einem. Datenverarbeitungslo- 
gikzellenf eld und zumindest einer Sequenziell-CPU,' dadurch 
gekennzeichnet, .'dass eine Ankopplung der Sequenziell-CPU und 
des Datenverarbeitungslogikzellenfeldes zum Datenaustausch in 
insbesondere blockweiser Form durch zu einem Cache-Speicher 
fiihrende Leitungen. moglich ist. 
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Die Erf indung .betrif ft eine Datenverarbeitungsvorrichtung mit 
einem, Datenverarbeitungslogikzellenf eld und zumindest einer. 
Sequenziell-CPU.. Hierbei ist vorgesehen, dass eine Ankopplung 
der Sequenziell-CPU und des Datenverarbeitungslogikzellenf el- 
des zum Datenaustausch in insbesdndere blockweiser Form durch 
zu .einem Cache-Speicher fuhrende Leitungen moglich ist. 
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